The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
Privacy in AI remains a topic that draws attention from researchers and the general public in recent years. As one way to implement privacy-preserving AI, differentially private learning is a framework that enables AI models to use differential privacy (DP). To achieve DP in the learning process, existing algorithms typically limit the magnitude of gradients with a constant clipping, which requires carefully tuned due to its significant impact on model performance. As a solution to this issue, latest works NSGD and Auto-S innovatively propose to use normalization instead of clipping to avoid hyperparameter tuning. However, normalization-based approaches like NSGD and Auto-S rely on a monotonic weight function, which imposes excessive weight on small gradient samples and introduces extra deviation to the update. In this paper, we propose a Differentially Private Per-Sample Adaptive Clipping (DP-PSAC) algorithm based on a non-monotonic adaptive weight function, which guarantees privacy without the typical hyperparameter tuning process of using a constant clipping while significantly reducing the deviation between the update and true batch-averaged gradient. We provide a rigorous theoretical convergence analysis and show that with convergence rate at the same order, the proposed algorithm achieves a lower non-vanishing bound, which is maintained over training iterations, compared with NSGD/Auto-S. In addition, through extensive experimental evaluation, we show that DP-PSAC outperforms or matches the state-of-the-art methods on multiple main-stream vision and language tasks.
translated by 谷歌翻译
Multi-view representation learning has developed rapidly over the past decades and has been applied in many fields. However, most previous works assumed that each view is complete and aligned. This leads to an inevitable deterioration in their performance when encountering practical problems such as missing or unaligned views. To address the challenge of representation learning on partially aligned multi-view data, we propose a new cross-view graph contrastive learning framework, which integrates multi-view information to align data and learn latent representations. Compared with current approaches, the proposed method has the following merits: (1) our model is an end-to-end framework that simultaneously performs view-specific representation learning via view-specific autoencoders and cluster-level data aligning by combining multi-view information with the cross-view graph contrastive learning; (2) it is easy to apply our model to explore information from three or more modalities/sources as the cross-view graph contrastive learning is devised. Extensive experiments conducted on several real datasets demonstrate the effectiveness of the proposed method on the clustering and classification tasks.
translated by 谷歌翻译
大型语言模型可以编码有关世界的大量语义知识。这种知识对于旨在采取自然语言表达的高级,时间扩展的指示的机器人可能非常有用。但是,语言模型的一个重大弱点是,它们缺乏现实世界的经验,这使得很难利用它们在给定的体现中进行决策。例如,要求语言模型描述如何清洁溢出物可能会导致合理的叙述,但是它可能不适用于需要在特定环境中执行此任务的特定代理商(例如机器人)。我们建议通过预处理的技能来提供现实世界的基础,这些技能用于限制模型以提出可行且在上下文上适当的自然语言动作。机器人可以充当语​​言模型的“手和眼睛”,而语言模型可以提供有关任务的高级语义知识。我们展示了如何将低级技能与大语言模型结合在一起,以便语言模型提供有关执行复杂和时间扩展说明的过程的高级知识,而与这些技能相关的价值功能则提供了连接必要的基础了解特定的物理环境。我们在许多现实世界的机器人任务上评估了我们的方法,我们表明了对现实世界接地的需求,并且这种方法能够在移动操纵器上完成长远,抽象的自然语言指令。该项目的网站和视频可以在https://say-can.github.io/上找到。
translated by 谷歌翻译
在现实世界应用中的深度神经网络(DNN)的成功受益于丰富的预训练模型。然而,回溯预训练模型可以对下游DNN的部署构成显着的特洛伊木马威胁。现有的DNN测试方法主要旨在在对抗性设置中找到错误的角壳行为,但未能发现由强大的木马攻击所制作的后门。观察特洛伊木马网络行为表明,它们不仅由先前的工作所提出的单一受损神经元反射,而且归因于在多个神经元的激活强度和频率中的关键神经路径。这项工作制定了DNN后门测试,并提出了录音机框架。通过少量良性示例的关键神经元的差异模糊,我们识别特洛伊木马路径,特别是临界人,并通过模拟所识别的路径中的关键神经元来产生后门测试示例。广泛的实验表明了追索者的优越性,比现有方法更高的检测性能。通过隐秘的混合和自适应攻击来检测到后门的录音机更好,现有方法无法检测到。此外,我们的实验表明,录音所可能会揭示模型动物园中的模型的潜在潜在的背面。
translated by 谷歌翻译
最近提出了越来越多的通信和计算方案,其中据提出了量子优势,这意味着量子技术具有肥沃的应用前景。然而,证明这些计划实验继续成为一个中央挑战,因为难以准备高维态或高度纠缠的状态。在这项研究中,我们通过采用相干状态和简单的线性光学元件来介绍和分析量子优惠券收集器协议,其使用现实的实验设备成功地证明了这一点。我们认为,与优惠券收集器问题的经典极限相比,我们的协议可以显着减少学习特定集合所需的样本数量。我们还通过构建量子盲箱游戏讨论量子优惠券收集器的潜在价值和扩展。所提出的游戏传输的信息也打破了经典的极限。这些结果强烈证明量子力学在机器学习和通信复杂性中的优点。
translated by 谷歌翻译
离散图形模型的状态空间的规模对于深度学习时代的模型能力至关重要。基于动态编程(DP)的推断通常使用少量状态(通常小于数百个)。在这项工作中,我们提出了一系列随机动态编程(RDP)算法,用于将结构化模型缩放到成千上万的潜在状态。我们的方法广泛适用于基于经典的DP的推断(分区,边缘,重物,熵,.ETC)和不同的图形结构(链条,树木,更一般的超图)。它还与自动分化兼容,因此可以与神经网络无缝集成,并使用基于梯度的优化器学习。我们的核心技术是随机化,它是限制和重新重量DP在小型节点的小型子集上,导致计算级数的计算。我们进一步实现了利用RAO-Blackwellization和Implance采样的低偏差和差异。不同图表不同推论的实验证明了我们方法的准确性和效率。此外,使用RDP培训缩放结构VAE时,它在测试可能性方面优于基线,并且成功地防止后塌陷。
translated by 谷歌翻译
在本文中,我们考虑了在不完整视图上的多视图聚类问题。与完整的多视图聚类相比,视图缺失的问题会增加学习不同视图的常见表示的难度。为了解决挑战,我们提出了一种新颖的不完整的多视图聚类框架,该框架包含跨视网围传输和多视图融合学习。具体地,基于在多视图数据中存在的一致性,我们设计了一种基于跨视网围的转移转移的完成模块,该完成模块将已知与缺失视图的已知相似的相互关系的关系传输,并根据传输的图形网络恢复丢失的数据关系图。然后,设计特定于特定的编码器以提取恢复的多视图数据,引入基于注意的融合层以获得公共表示。此外,为了减少由视图之间不一致并获得更好的聚类结构引起的误差的影响,引入了联合聚类层以同时优化恢复和聚类。在几个真实数据集上进行的广泛实验证明了该方法的有效性。
translated by 谷歌翻译
基于图形的多视图聚类,旨在跨多种视图获取数据分区,近年来接受了相当大的关注。虽然已经为基于图形的多视图群集进行了巨大努力,但它对各种视图融合特征仍然是一个挑战,以学习聚类的常见表示。在本文中,我们提出了一种新的一致多曲线图嵌入聚类框架(CMGEC)。具体地,设计了一种多图自动编码器(M-GAE),用于使用多图注意融合编码器灵活地编码多视图数据的互补信息。为了引导所学过的公共表示维护每个视图中相邻特征的相似性,引入了多视图相互信息最大化模块(MMIM)。此外,设计了一个图形融合网络(GFN),以探讨来自不同视图的图表之间的关系,并提供M-GAE所需的常见共识图。通过联合训练这些模型,可以获得共同的潜在表示,其从多个视图中编码更多互补信息,并更全面地描绘数据。三种类型的多视图数据集的实验表明CMGEC优于最先进的聚类方法。
translated by 谷歌翻译
作为人类视觉系统(HVS)的重要感知特性,已经研究了几十年的图像和视频处理(例如,感知视觉信号压缩)已经研究了刚刚明显的差异(JND)。然而,对于深度机器视觉(DMV)的JND存在很少的探索,尽管DMV在许多机器视觉任务中取得了很大的进步。在本文中,我们进行了初步尝试,并证明DMV具有JND,称为DMV-JND。然后,我们为DMV中的图像分类任务提出了JND模型。已经发现DMV可以通过与所提出的DMV-JND-NET的无监督学习产生JND来容忍平均PSNR的扭曲图像,其平均PSNR仅为9.56dB(越来越越好)。特别是,设计语义引导的冗余评估策略旨在抑制DMV-JND的幅度和空间分布。图像分类的实验结果表明,我们成功找到了深度机视觉的JND。我们的DMV-JND有助于DMV导向图像和视频压缩,水印,质量评估,深度神经网络安全等方向的可能方向。
translated by 谷歌翻译